查看原文
其他

数据,要!知识,更要!

zhpmatrix KBQA沉思录 2024-04-15
在非医疗NLP方向,data-driven是一种主流思想,但是在医疗NLP领域,由于该方向上产品对知识的强依赖关系,因此,需要data-driven和knowledge-driven共同存在。
从数据中获取知识,知识能够指导数据。围绕二者的关系和方法讨论,Liu zhiyuan(http://nlp.csai.tsinghua.edu.cn/~lzy/index_cn.html)也有一些工作。2021年的知识图谱峰会中,平安健康的Talk《融合知识与数据的临床决策支持》,再次印证了知识在医疗NLP领域的独特作用。
既然要用知识搞事情,首先要考虑的是知识是什么?
  • 领域规则

  • 词典:没有类型信息

  • 字典:带有类型信息

  • 知识图谱:实体+属性+关系(SPO三元组/关系型数据库/图数据库)

  • 其他

    那么,如何用知识搞事情呢?这里给出部分场景。

(1)融合知识到文本匹配任务中

在文本匹配任务中,通过强化关键词的信息,在某些场景下可以带来不错的提升。比如下述方式,通过强化关键词,加强关键词和文本的attention关系,是在模型层对关键词信息的利用。在我们之前的App内置问答系统的工作中,也带来了显著的提升。


实际上,沿着这个思路继续展开。神经关系抽取类工作中,一个经典的技巧是在实体左右侧分别添加特殊的marker,比如<start>和<end>,用来显著的标识该实体,是在输入层(数据)对关键词信息的利用。在笔者2019年实现的一个工作中(https://github.com/zhpmatrix/BERTem),正是该思想的体现。
另外一个相关的工作是预训练语言模型ZEN(https://github.com/sinovation/ZEN)。具体如下:

在输入侧,通过显式的构建ngram matching matrix,继而通过embedding,利用ngram的encoder和原始bert的layer进行交互,实现对lexicon信息的利用强化。
(2)融合知识到预训练语言模型中
在上文中,讨论了ZEN的工作,是一种融合知识进入预训练语言模型的代表性方式。实际上,在医疗NLP方向上,有很多已经沉淀的lexicon,采用和ZEN类似的思想,是一个比较直接的做法。此外,不同于其他领域,对于一个医疗NLP领域的实体识别模型,识别的实体可以回流到词典中,模型的推断结果本身也是知识的一个部分。
该方向上的工作较多,比如KBERT,ERNIE1.0等。
(3)获取知识的表征用于下游任务
针对一个已经构建好的医学知识图谱,可以获取知识的表征。典型的方法,比如TranX系列。这里知识的表征,意味着每个疾病,症状和诊断均有一个向量化的表示。该表示既可以直接应用于搜索推荐场景,也可以用于下游任务,比如文本分类和实体识别等。这里具体的用法很多,不再赘述。
(4)结构化知识和非结构化文本之间的相互转换
在很多时候,我们可能更关心从非结构化的数据到结构化的知识的过程,典型的比如信息抽取等各种技术方向。但是,假如已经有了一个知识图谱或者其他结构化的数据,利用data2text的技术,也可以获取非结构化的数据,而该数据对于训练一个domain-specific的预训练语言模型就显得格外的有用。

在KELM(NAACL2021)中,比如上图,最左侧的子图,可以通过concatenate获取一段文本,继而通过verbalized得到润色之后的文本。
 除了结构化和非结构化的相互转化之外,在问答系统中,问题和答案的相互生成也是一个具有吸引力的话题。

(5)问答系统中的知识

在较早之前,笔者参加的一个比赛中(https://github.com/zhpmatrix/lic2019-competition),可以利用知识图谱,实现对话过程中的话题控制。从技术实现角度来看,response生成的context中,除了当前输入,同时有话题知识(三元组的形式)。

这篇文章简要讨论了知识在医疗NLP的一些应用场景,强调了知识和数据共同作为重要研究对象的必要性。因此,持续思考知识是什么?知识怎么获取?如何利用知识?就成为了相对重要的问题。


相关资料:


(1)《Keyword-Attentive Deep Semantic Matching》

相关中文文章:《Keyword-BERT: 问答系统中语义匹配的杀手锏》(https://blog.csdn.net/xixiaoyaoww/article/details/105182946)


(2)https://github.com/alibaba/AliceMind/tree/main/StructBERT


(3)https://ai.googleblog.com/2021/05/kelm-integrating-knowledge-graphs-with.html


点击关注,更多的NLP技术,产品,比赛和观点输出,

扫码加笔者好友,茶已备好,等你来聊,


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存